DeepMind - 新闻与博客领域信息情报检索

DeepMind是人工智能研究和应用的全球领导者。他们在进行科学使命的同时,推动着人工智能的边界,开发能够学习解决任何复杂问题的程序,而无需进行教学。

计算最优大型语言模型训练的实证分析

An empirical analysis of compute-optimal large language model training

我们问一个问题:“对于给定的计算预算,最佳模型大小和训练令牌数量是多少?”为了回答这个问题,我们训练了各种大小和各种标记数量的模型,并根据经验估计了这种权衡。我们的主要发现是,当前的大型语言模型对于其计算预算来说太大了,并且没有在足够的数据上进行训练。